Telegram Group & Telegram Channel
🚀 Deep Seek представили NSA – инновационную Sparse Attention технологию для ультрабыстрого обучения и инференса с длинным контекстом!

Основные детали:
• Динамическая иерархическая разреженност
ь – модель умело распределяет внимание, выделяя ключевые моменты в длинных последовательностях.
• Грубое сжатие токенов – снижает объём обрабатываемых данных без потери важной информации.
• Точный выбор токенов – сохраняет критически значимые детали для высокой точности.

Благодаря оптимизации под современное железо NSA не только ускоряет инференс, но и снижает затраты на предобучение, при этом демонстрируя результаты, сравнимые или превосходящие Full Attention модели на общих тестах, задачах с длинным контекстом и инструктивном рассуждении.

Подробности и технические детали в статье: https://arxiv.org/abs/2502.11089

@machinelearning_interview



tg-me.com/machinelearning_interview/1566
Create:
Last Update:

🚀 Deep Seek представили NSA – инновационную Sparse Attention технологию для ультрабыстрого обучения и инференса с длинным контекстом!

Основные детали:
• Динамическая иерархическая разреженност
ь – модель умело распределяет внимание, выделяя ключевые моменты в длинных последовательностях.
• Грубое сжатие токенов – снижает объём обрабатываемых данных без потери важной информации.
• Точный выбор токенов – сохраняет критически значимые детали для высокой точности.

Благодаря оптимизации под современное железо NSA не только ускоряет инференс, но и снижает затраты на предобучение, при этом демонстрируя результаты, сравнимые или превосходящие Full Attention модели на общих тестах, задачах с длинным контекстом и инструктивном рассуждении.

Подробности и технические детали в статье: https://arxiv.org/abs/2502.11089

@machinelearning_interview

BY Machine learning Interview





Share with your friend now:
tg-me.com/machinelearning_interview/1566

View MORE
Open in Telegram


Machine learning Interview Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at ₹43,559 crore at the end of March 2021 compared to the company’s market capitalisation of ₹44,447 crore.

Should I buy bitcoin?

“To the extent it is used I fear it’s often for illicit finance. It’s an extremely inefficient way of conducting transactions, and the amount of energy that’s consumed in processing those transactions is staggering,” the former Fed chairwoman said. Yellen’s comments have been cited as a reason for bitcoin’s recent losses. However, Yellen’s assessment of bitcoin as a inefficient medium of exchange is an important point and one that has already been raised in the past by bitcoin bulls. Using a volatile asset in exchange for goods and services makes little sense if the asset can tumble 10% in a day, or surge 80% over the course of a two months as bitcoin has done in 2021, critics argue. To put a finer point on it, over the past 12 months bitcoin has registered 8 corrections, defined as a decline from a recent peak of at least 10% but not more than 20%, and two bear markets, which are defined as falls of 20% or more, according to Dow Jones Market Data.

Machine learning Interview from no


Telegram Machine learning Interview
FROM USA